Lịch sử Tích_hợp_dữ_liệu

Tập tin:Datawarehouse.pngHình 1: Sơ đồ đơn giản cho một kho dữ liệu. Quá trình trích xuất, chuyển đổi, tải (ETL) trích xuất thông tin từ cơ sở dữ liệu nguồn, biến đổi nó và sau đó tải nó vào kho dữ liệu.Tập tin:Dataintegration.pngHình 2: Sơ đồ đơn giản cho một giải pháp tích hợp dữ liệu. Một nhà thiết kế hệ thống xây dựng một lược đồ trung gian mà người dùng có thể chạy truy vấn. Các giao diện cơ sở dữ liệu ảo với cơ sở dữ liệu nguồn thông qua mã trình bao bọc nếu được yêu cầu.

Các vấn đề với việc kết hợp các nguồn dữ liệu không đồng nhất, thường được gọi là silo thông tin, trong một giao diện truy vấn duy nhất đã tồn tại một thời gian. Đầu những năm 1980, các nhà khoa học máy tính bắt đầu thiết kế các hệ thống cho khả năng tương tác của các cơ sở dữ liệu không đồng nhất.[3] Hệ thống tích hợp dữ liệu đầu tiên được điều khiển bởi siêu dữ liệu có cấu trúc được thiết kế tại Đại học Minnesota vào năm 1991, dành cho Sê-ri Microdata sử dụng công cộng tích hợp (Integrated Public Use Microdata Series, viết tắt IPUMS). IPUMS đã sử dụng phương pháp lưu trữ dữ liệu, trích xuất, chuyển đổi và tải dữ liệu từ các nguồn không đồng nhất vào một lược đồ xem đơn để dữ liệu từ các nguồn khác nhau trở nên tương thích.[4] Bằng cách làm cho hàng ngàn cơ sở dữ liệu dân số có thể tương tác, IPUMS đã chứng minh tính khả thi của tích hợp dữ liệu quy mô lớn. Cách tiếp cận kho dữ liệu cung cấp một kiến trúc được kết hợp chặt chẽ vì dữ liệu đã được đối chiếu vật lý trong một kho lưu trữ truy vấn duy nhất, do đó thường mất ít thời gian để giải quyết các truy vấn.[5]

Cách tiếp cận kho dữ liệu ít khả thi hơn đối với các tập dữ liệu thường xuyên được cập nhật, yêu cầu quá trình trích xuất, chuyển đổi, tải (ETL) phải được thực hiện lại liên tục để đồng bộ hóa. Khó khăn cũng phát sinh trong việc xây dựng kho dữ liệu khi người ta chỉ có giao diện truy vấn để tóm tắt các nguồn dữ liệu và không có quyền truy cập vào dữ liệu đầy đủ. Vấn đề này thường xuất hiện khi tích hợp một số dịch vụ truy vấn thương mại như du lịch hoặc các ứng dụng web quảng cáo được phân loại.

Tính đến năm 2009[cập nhật] xu hướng tích hợp dữ liệu ủng hộ nới lỏng sự ghép nối giữa dữ liệu và cung cấp giao diện truy vấn thống nhất để truy cập dữ liệu thời gian thực qua lược đồ trung gian (xem Hình 2), cho phép lấy thông tin trực tiếp từ cơ sở dữ liệu gốc. Điều này phù hợp với cách tiếp cận phổ biến trong thời đại đó. Cách tiếp cận này dựa trên ánh xạ giữa lược đồ trung gian và lược đồ của các nguồn ban đầu và chuyển đổi một truy vấn thành các truy vấn chuyên biệt để khớp với lược đồ của cơ sở dữ liệu gốc. Ánh xạ như vậy có thể được chỉ định theo hai cách: như ánh xạ từ các thực thể trong lược đồ trung gian sang các thực thể trong các nguồn ban đầu (cách tiếp cận "Toàn cầu theo quan điểm" (GAV)) hoặc như ánh xạ từ các thực thể trong nguồn ban đầu sang trung gian lược đồ (cách tiếp cận "Local As View" (LAV)). Cách tiếp cận thứ hai đòi hỏi các suy luận phức tạp hơn để giải quyết một truy vấn trên lược đồ trung gian, nhưng giúp dễ dàng thêm các nguồn dữ liệu mới vào một lược đồ trung gian (ổn định).